Use cached datasets for building documentation/examples

author Debian Science Maintainers <debian-science-maintainers@lists.alioth.debian.org>

Sat, 2 Mar 2019 14:59:35 +0000 (14:59 +0000)

committer Rebecca N. Palmer <rebecca_palmer@zoho.com>

Sat, 2 Mar 2019 14:59:35 +0000 (14:59 +0000)
author Debian Science Maintainers <debian-science-maintainers@lists.alioth.debian.org>
Sat, 2 Mar 2019 14:59:35 +0000 (14:59 +0000)
committer Rebecca N. Palmer <rebecca_palmer@zoho.com>
Sat, 2 Mar 2019 14:59:35 +0000 (14:59 +0000)
diff --git a/docs/source/contingency_tables.rst b/docs/source/contingency_tables.rst

index 4bc53938f6b11575de93900ccbd5740178c0882f..e66c2156f6a5287dc9119e89a8ac99db5e03c8b1 100644 (file)
--- a/docs/source/contingency_tables.rst
+++ b/docs/source/contingency_tables.rst
@@ -49,7 +49,7 @@ contingency table cell counts:
      import pandas as pd
      import statsmodels.api as sm
  
-    df = sm.datasets.get_rdataset("Arthritis", "vcd").data
+    df = sm.datasets.get_rdataset("Arthritis", "vcd", cache=True).data
  
      tab = pd.crosstab(df['Treatment'], df['Improved'])
      tab = tab.loc[:, ["None", "Some", "Marked"]]
@@ -182,7 +182,7 @@ contingency table.
  
  .. ipython:: python
  
-    df = sm.datasets.get_rdataset("VisualAcuity", "vcd").data
+    df = sm.datasets.get_rdataset("VisualAcuity", "vcd", cache=True).data
      df = df.loc[df.gender == "female", :]
      tab = df.set_index(['left', 'right'])
      del tab["gender"]
diff --git a/docs/source/datasets/index.rst b/docs/source/datasets/index.rst

index 3220dbe1764b2da0dcecf0f59e320a5e972cc7a3..171014d800573c2b8c4de423742602aed2f89e1d 100644 (file)
--- a/docs/source/datasets/index.rst
+++ b/docs/source/datasets/index.rst
@@ -30,7 +30,7 @@ The `Rdatasets project <http://vincentarelbundock.github.io/Rdatasets/>`__ gives
  .. ipython:: python
  
     import statsmodels.api as sm
-   duncan_prestige = sm.datasets.get_rdataset("Duncan", "car")
+   duncan_prestige = sm.datasets.get_rdataset("Duncan", "car", cache=True)
     print(duncan_prestige.__doc__)
     duncan_prestige.data.head(5)
  
diff --git a/docs/source/duration.rst b/docs/source/duration.rst

index fc71ecfeb31c507199aaf7209d671ae2f636e41b..7dd93a40a76e1eec36bb9d064249b4e750bc10d3 100644 (file)
--- a/docs/source/duration.rst
+++ b/docs/source/duration.rst
@@ -42,7 +42,7 @@ We fit the survival distribution only for the female subjects.
  
     import statsmodels.api as sm
  
-   data = sm.datasets.get_rdataset("flchain", "survival").data
+   data = sm.datasets.get_rdataset("flchain", "survival", cache=True).data
     df = data.loc[data.sex == "F", :]
     sf = sm.SurvfuncRight(df["futime"], df["death"])
  
@@ -155,7 +155,7 @@ Examples
     import statsmodels.api as sm
     import statsmodels.formula.api as smf
  
-   data = sm.datasets.get_rdataset("flchain", "survival").data
+   data = sm.datasets.get_rdataset("flchain", "survival", cache=True).data
     del data["chapter"]
     data = data.dropna()
     data["lam"] = data["lambda"]
diff --git a/docs/source/example_formulas.rst b/docs/source/example_formulas.rst

index c1f6d68d4bb19e95cdfa53988ee81a915e403227..411e75758c31288ed64b934dd19b3f100b507851 100644 (file)
--- a/docs/source/example_formulas.rst
+++ b/docs/source/example_formulas.rst
@@ -45,7 +45,7 @@ and list-wise delete to remove missing observations:
  
  .. ipython:: python
  
-    df = sm.datasets.get_rdataset("Guerry", "HistData").data
+    df = sm.datasets.get_rdataset("Guerry", "HistData", cache=True).data
      df = df[['Lottery', 'Literacy', 'Wealth', 'Region']].dropna()
      df.head()
  
diff --git a/docs/source/gee.rst b/docs/source/gee.rst

index edaaf9def1ecf07a2f8c2306d77054e650b9cac6..e1ba3538989f80dc70e2b46a021e933902072fea 100644 (file)
--- a/docs/source/gee.rst
+++ b/docs/source/gee.rst
@@ -24,7 +24,7 @@ within clusters using data on epilepsy seizures.
      import statsmodels.api as sm
      import statsmodels.formula.api as smf
  
-    data = sm.datasets.get_rdataset('epil', package='MASS').data
+    data = sm.datasets.get_rdataset('epil', package='MASS', cache=True).data
  
      fam = sm.families.Poisson()
      ind = sm.cov_struct.Exchangeable()
diff --git a/docs/source/gettingstarted.rst b/docs/source/gettingstarted.rst

index 054eae9f9cf382312b35fed44acfdd0d38a521e4..530093b99c175931cb43becdd5709128582b8fe5 100644 (file)
--- a/docs/source/gettingstarted.rst
+++ b/docs/source/gettingstarted.rst
@@ -43,7 +43,7 @@ We could download the file locally and then load it using ``read_csv``, but
  
  .. ipython:: python
  
-    df = sm.datasets.get_rdataset("Guerry", "HistData").data
+    df = sm.datasets.get_rdataset("Guerry", "HistData", cache=True).data
  
  The `Input/Output doc page <iolib.html>`_ shows how to import from various
  other formats.
diff --git a/docs/source/index.rst b/docs/source/index.rst

index 6f544a2a800019ef339c013ac2d008bd116ef6b3..48f7aa1fa93cbaba8ed4eb66a963826f3e38181f 100644 (file)
--- a/docs/source/index.rst
+++ b/docs/source/index.rst
@@ -25,7 +25,7 @@ example using ordinary least squares:
      import statsmodels.formula.api as smf
  
      # Load data
-    dat = sm.datasets.get_rdataset("Guerry", "HistData").data
+    dat = sm.datasets.get_rdataset("Guerry", "HistData", cache=True).data
  
      # Fit regression model (using the natural log of one of the regressors)
      results = smf.ols('Lottery ~ Literacy + np.log(Pop1831)', data=dat).fit()
diff --git a/docs/source/mixed_linear.rst b/docs/source/mixed_linear.rst

index 7cbfe85d0bed1bcea9f1633b64cfeb30fb70b688..a57bc56e699e5cd4715fd211fc2dcc3a30983c1e 100644 (file)
--- a/docs/source/mixed_linear.rst
+++ b/docs/source/mixed_linear.rst
@@ -35,7 +35,7 @@ Examples
    import statsmodels.api as sm
    import statsmodels.formula.api as smf
  
-  data = sm.datasets.get_rdataset("dietox", "geepack").data
+  data = sm.datasets.get_rdataset("dietox", "geepack", cache=True).data
  
    md = smf.mixedlm("Weight ~ Time", data, groups=data["Pig"])
    mdf = md.fit()
diff --git a/docs/source/release/version0.6.rst b/docs/source/release/version0.6.rst

index 1f3c7ad08f89281621125cc38347e7ec9db2f724..d9c0c6ad3367b2a016e21bb3588e8d2d9af721b7 100644 (file)
--- a/docs/source/release/version0.6.rst
+++ b/docs/source/release/version0.6.rst
@@ -43,7 +43,7 @@ covariates.
     import statsmodels.api as sm
     import statsmodels.formula.api as smf
  
-   data = sm.datasets.get_rdataset("epil", "MASS").data
+   data = sm.datasets.get_rdataset("epil", "MASS", cache=True).data
  
     md = smf.gee("y ~ age + trt + base", "subject", data,
                  cov_struct=sm.cov_struct.Independence(), 
diff --git a/examples/notebooks/markov_regression.ipynb b/examples/notebooks/markov_regression.ipynb

index 48e174c3df95d619752942313c7d5d4757accd6d..b4b1a11a55cd0438bb2ac9d76db8af9cfe66bf9e 100644 (file)
--- a/examples/notebooks/markov_regression.ipynb
+++ b/examples/notebooks/markov_regression.ipynb
@@ -28,11 +28,7 @@
      "import pandas as pd\n",
      "import statsmodels.api as sm\n",
      "import matplotlib.pyplot as plt\n",
-    "\n",
-    "# NBER recessions\n",
-    "from pandas_datareader.data import DataReader\n",
-    "from datetime import datetime\n",
-    "usrec = DataReader('USREC', 'fred', start=datetime(1947, 1, 1), end=datetime(2013, 4, 1))"
+    "from datetime import datetime\n"
     ]
    },
    {
diff --git a/examples/notebooks/mixed_lm_example.ipynb b/examples/notebooks/mixed_lm_example.ipynb

index b6e21a73b67a5c02f751a303bdd2122f17815f69..672aac82dbbd278821a1400f26be0c76cffd9f36 100644 (file)
--- a/examples/notebooks/mixed_lm_example.ipynb
+++ b/examples/notebooks/mixed_lm_example.ipynb
@@ -75,7 +75,7 @@
     },
     "outputs": [],
     "source": [
-    "data = sm.datasets.get_rdataset('dietox', 'geepack').data\n",
+    "data = sm.datasets.get_rdataset('dietox', 'geepack', cache=True).data\n",
      "md = smf.mixedlm(\"Weight ~ Time\", data, groups=data[\"Pig\"])\n",
      "mdf = md.fit()\n",
      "print(mdf.summary())"
@@ -225,7 +225,7 @@
     },
     "outputs": [],
     "source": [
-    "data = sm.datasets.get_rdataset(\"Sitka\", \"MASS\").data\n",
+    "data = sm.datasets.get_rdataset(\"Sitka\", \"MASS\", cache=True).data\n",
      "endog = data[\"size\"]\n",
      "data[\"Intercept\"] = 1\n",
      "exog = data[[\"Intercept\", \"Time\"]]"
diff --git a/examples/notebooks/regression_diagnostics.ipynb b/examples/notebooks/regression_diagnostics.ipynb

index 7bed710d2cbe6c9cdc10c8ed1636548f4d16fe51..377d78cfb6040d05cc8a0a421c735e9f486a5908 100644 (file)
--- a/examples/notebooks/regression_diagnostics.ipynb
+++ b/examples/notebooks/regression_diagnostics.ipynb
@@ -43,8 +43,7 @@
      "import matplotlib.pyplot as plt\n",
      "\n",
      "# Load data\n",
-    "url = 'http://vincentarelbundock.github.io/Rdatasets/csv/HistData/Guerry.csv'\n",
-    "dat = pd.read_csv(url)\n",
+    "dat = statsmodels.datasets.get_rdataset(\"Guerry\", \"HistData\", cache=True).data\n",
      "\n",
      "# Fit regression model (using the natural log of one of the regressaors)\n",
      "results = smf.ols('Lottery ~ Literacy + np.log(Pop1831)', data=dat).fit()\n",
author	Debian Science Maintainers <debian-science-maintainers@lists.alioth.debian.org>
	Sat, 2 Mar 2019 14:59:35 +0000 (14:59 +0000)
committer	Rebecca N. Palmer <rebecca_palmer@zoho.com>
	Sat, 2 Mar 2019 14:59:35 +0000 (14:59 +0000)
docs/source/contingency_tables.rst		patch \| blob \| history
docs/source/datasets/index.rst		patch \| blob \| history
docs/source/duration.rst		patch \| blob \| history
docs/source/example_formulas.rst		patch \| blob \| history
docs/source/gee.rst		patch \| blob \| history
docs/source/gettingstarted.rst		patch \| blob \| history
docs/source/index.rst		patch \| blob \| history
docs/source/mixed_linear.rst		patch \| blob \| history
docs/source/release/version0.6.rst		patch \| blob \| history
examples/notebooks/markov_regression.ipynb		patch \| blob \| history
examples/notebooks/mixed_lm_example.ipynb		patch \| blob \| history
examples/notebooks/regression_diagnostics.ipynb		patch \| blob \| history